Introducción

Este documento presenta una descripción y análisis de tres visualizaciones clave generadas a partir del dataset Boston, que contiene información sobre variables socioeconómicas, ambientales y de vivienda en 506 barrios de Boston. La variable objetivo es el valor medio de las viviendas (medv).

1. Gráfico de Dispersión 3D: lstat, rm, medv

Descripción del Gráfico

Este gráfico de dispersión tridimensional muestra la relación entre tres variables fundamentales:

-Eje X: lstat (Porcentaje de estatus bajo de la población)

-Eje Y: rm (Número promedio de habitaciones por vivienda)

-Eje Z: medv (Valor medio de las viviendas)

Cada punto en el gráfico representa un barrio de Boston. La interactividad de plotly permite rotar, hacer zoom y arrastrar el gráfico para explorar las relaciones desde diferentes ángulos.

Análisis de los Resultados

Al observar el gráfico 3D, se pueden identificar varias tendencias:

  • Relación lstat - medv: Generalmente, a medida que el lstat (porcentaje de estatus bajo) aumenta, el medv (valor medio de las viviendas) tiende a disminuir. Esto sugiere que los barrios con una mayor proporción de población de bajo estatus socioeconómico tienen precios de vivienda más bajos.

  • Relación rm - medv: Existe una clara correlación positiva entre rm (número promedio de habitaciones) y medv. Los barrios con más habitaciones por vivienda tienden a tener valores de vivienda más altos, lo cual es intuitivo.

  • Interacción conjunta: La visualización 3D permite apreciar cómo estas dos variables predictoras (lstat y rm) interactúan para influir en medv. Se observa una superficie implícita donde los valores altos de rm y bajos de lstat se asocian con los medv más elevados, mientras que los valores bajos de rm y altos de lstat se corresponden con medv más bajos. La forma del “nube de puntos” sugiere que la relación no es perfectamente lineal, especialmente en los extremos.


2. Histograma Interactivo con Curva de Densidad para lstat

Descripción del Gráfico

Este gráfico es un histograma de la variable lstat (porcentaje de estatus bajo de la población) con una curva de densidad superpuesta.

  • El histograma muestra la distribución de frecuencias de lstat, dividiendo los datos en “bins” y mostrando la cantidad de observaciones en cada rango.

  • La curva de densidad suavizada estima la función de densidad de probabilidad de lstat, proporcionando una representación continua de su distribución. La interactividad permite explorar las frecuencias y densidades en puntos específicos.

Análisis de los Resultados

El histograma y la curva de densidad para lstat revelan que:

La distribución de lstat está sesgada a la derecha. Esto significa que la mayoría de los barrios tienen un porcentaje de estatus bajo relativamente bajo, y hay una cola más larga de barrios con porcentajes de estatus bajo más altos.

La concentración principal de barrios se encuentra en el rango de lstat bajo (aproximadamente entre 5% y 15%).

Hay menos barrios a medida que lstat aumenta, indicando que los barrios con un muy alto porcentaje de estatus bajo son menos comunes en el dataset. Esta distribución es importante para entender la composición socioeconómica de los barrios en Boston y cómo podría influir en otras variables.


3. Diagrama de Dispersión 2D: lstat vs medv (coloreado por chas)

Descripción del Gráfico

Este diagrama de dispersión en 2D muestra la relación entre lstat (porcentaje de población con bajo estatus socioeconómico) en el eje X y medv (valor medio de vivienda) en el eje Y.

Características adicionales:

Línea de Suavizado (LOESS): Se ha añadido una línea de suavizado (regresión local LOESS) para visualizar la tendencia general de la relación entre lstat y medv.

Color por chas: Los puntos están coloreados según el valor de la variable chas, que es un indicador binario (0 o 1) de si el barrio colinda con el río Charles.

0: No colinda con río Charles (azul)

1: Colinda con río Charles (rojo) El gráfico incluye etiquetas claras, un título descriptivo y una leyenda para chas.

Análisis de los Resultados

De este diagrama de dispersión se pueden extraer las siguientes observaciones:

  • Relación Inversa lstat - medv: Se confirma una fuerte relación inversa entre lstat y medv. A medida que el porcentaje de estatus bajo aumenta, el valor medio de las viviendas disminuye significativamente. La línea LOESS captura claramente esta tendencia no lineal, mostrando una caída más pronunciada en medv a medida que lstat aumenta.

  • Impacto de chas:

    -Los puntos azules (chas = 0, no colinda con el río) son predominantes y muestran la tendencia general de disminución de medv con el aumento de lstat.

    -Los puntos rojos (chas = 1, colinda con el río) son menos numerosos, pero tienden a tener valores de medv consistentemente más altos en comparación con los barrios que no colindan con el río para un lstat similar. Esto sugiere que la proximidad al río Charles es un factor positivo y significativo en el valor de las propiedades, incluso después de considerar el estatus socioeconómico del barrio.